2016-07-25

Machine Learning Foundations - L4 Notes(上)

1. 一 Learning is Impossible?
1. 1.1. No Free Lunch
2. 二 Probability to the Rescue

章節名稱: feasibility of learning

一 Learning is Impossible?

No Free Lunch

在某些情況我們可能無法學習到東西，這邊舉了個例子，我們用在資料內的 $x_n$ 、 $y_n$ ，來驗證產生出來的 $g$ 是否近似於 $f$ ，但就算資料內的都相符了，我們仍然無法確定 $g$ 是否近似於 $f$ ，綜觀來看好像沒學到東西。
圖中 $f_n$ 我們並不知道，所以資料外 ($D$) 的 $y_n$ 我們自然無法得知，也就無法保證一定學到了甚麼東西。

但實際上這類可能才是我們想要的，利用已知的資料來達到預測資料外的結果。

通常我們無法只丟資料，然後去學，來得知資料外的事。 => No Free Lunch
除非加上一些假設。

4-1-1

二 Probability to the Rescue

用機率來推論

所以由剛剛來看，我們需要一些東西來對未知的 $f$ 做一些推論。

4-2-1

我們想要知道瓶子裡，橘色彈珠的比例佔多少，除了一顆一顆數要如何知道呢？
我們可以用機率來推論:

罐子裡橘色的機率為 : $\mu$ (未知)

隨機抓一把彈珠 => Sample
Sample 裡橘色的機率為: $\nu$ (已知)

則我們能利用 in-sample $\nu$ 來得知 out-of-sample $\mu$ 的一些資訊，

首先，無法知道一定有多少比例的橘色，比如抓一把結果全都是綠，但實際上裡面有橘色。
我們可以知道的是可能 $\nu$ 和 $\mu$ 是很接近的。

Hoeffding’s Inequality

而數學上如何說明這件事呢？

4-2-2

結論上來說就是當 N 很大時，$\mu$ 和 $\nu$ 會很接近的機率很大。也就是 $\mu$ 和 $\nu$ 相差很大的機率很小，寫成數學則像是圖中那樣。(exp: 指數函數，$e^x$ )

PAC : 有很大的機會差不多是對的。

4-2-3

而在 Hoeffding’s Inequality 中，首先要有合理的 N 和 $\epsilon$ (容忍度) ，然後我們不需要知道 $\mu$。
當 N 或是 $\epsilon$ 越大時，圖中不等式右邊的值就越小。

練習

4-2-4

$$\epsilon = \mu - \nu = 0.3 \\ \Bbb{P}[ \vert \nu - \mu \vert \gt \epsilon ] \le 2 \times e^{(-2 \times {\epsilon}^2 \times 10)} \fallingdotseq 0.33$$

此答案對所有 $\mu$ 皆可以，有過度的空間(overestimate)，也就是所謂的上限。

至於實際機率則要利用 $\mu$ 才能算出來，答案是 4 ，查了一下，算法如下:

首先 $\nu \le 0.1$ ，代表所選的 10 顆內(Sample)，有可能有 1顆(0.1) 或 0顆(0) 橘的。
而在瓶子(Population) 內發生這樣的機率為:
($\mu$ 為挑到橘色的機率)

0 顆橘的 ${(1-\mu)}^{10} = {0.6}^{10}$
1 顆橘的 ${ 10 \choose 1 } \times {0.4}^1 \times {0.6}^9$

兩個相加:
${0.6}^{10} + { 10 \choose 1 } \times {0.4}^1 \times {0.6}^9 = 0.04635\ldots \fallingdotseq 0.05$

NaiveRed's Blog

Don't Panic!